Wprowadzenie

Analiza warunków życia w różnych regionach jest kluczowa dla zrozumienia różnic społeczno-ekonomicznych oraz planowania polityki rozwoju regionalnego. W niniejszym badaniu skoncentrowano się na powiatach południowo-wschodniej Polski, obejmujących województwa małopolskie, podkarpackie i świętokrzyskie, wykorzystując metody porządkowania liniowego oraz analizę skupień do oceny i klasyfikacji warunków życia mieszkańców tych obszarów.

W badaniu wykorzystano dane pochodzące z Banku Danych Lokalnych Głównego Urzędu Statystycznego (GUS), obejmujące rok 2023. Dobór zmiennych opisujących warunki życia (m.in. z zakresu rynku pracy, edukacji, demografii, zdrowia, infrastruktury, a także środowiska) został przeprowadzony na podstawie opracowania dotyczącego analizy tego regionu w roku 2019. W celu zapewnienia porównywalności wyników starano się możliwie wiernie odwzorować zestaw wskaźników użyty w tamtym badaniu. W tabeli przedstawiono wykorzystane zmienne.

Zmienna
Nazwa zmiennej
Jednostka Charakter
$X_1$ Stopa bezrobocia rejestrowanego % destymulanta
$X_2$ Nowo zarejestrowane podmioty gospodarki narodowej w rejestrze REGON na 10 000 osób szt. stymulanta
$X_3$ Udział bezrobotnych pozostających bez pracy dłużej niż rok wśród wszystkich zarejestrowanych bezrobotnych % destymulanta
$X_4$ Przeciętne miesięczne wynagrodzenie brutto stymulanta
$X_5$ Saldo migracji ogółem na 1000 mieszkańców osoby stymulanta
$X_6$ Współczynnik obciążenia demograficznego osobami starszymi % destymulanta
$X_7$ Ludność korzystająca z sieci kanalizacyjnej % stymulanta
$X_8$ Powierzchnia użytkowa mieszkania na osobę m2 stymulanta
$X_9$ Liczba osób na aptekę ogólnodostępną osoby destymulanta
$X_{10}$ Lekarze pracujący ogółem na 10 000 mieszkańców osoby stymulanta
$X_{11}$ Przestępstwa stwierdzone na 1000 mieszkańców szt. destymulanta
$X_{12}$ Liczba samochodów osobowych w przeliczeniu na 1000 mieszkańców powiatu szt. stymulanta
$X_{13}$ Długość dróg gminnych i powiatowych o twardej nawierzchni na 100km2 powierzchni powiatu km stymulanta
$X_{14}$ Liczba wypadków drogowych w przeliczeniu na 100 000
mieszkańców powiatu
szt. destymulanta
$X_{15}$ Zanieczyszczenia gazowe w przeliczeniu na 1 km2 powiatu t destymulanta
$X_{16}$ Parki, zieleńce i tereny zielone % stymulanta
$X_{17}$ Obszary prawnie chronione % stymulanta
$X_{18}$ Współczynnik skolaryzacji brutto % stymulanta
$X_{19}$ Uczniowie na oddział w szkołach ogólnokształcących osoby destymulanta

Analiza i przygotowanie danych

Dla analizowanych cech wyznaczono podstawowe statystyki opisowe, wykresy rozkładów, a także zbadano poziom ich skorelowanie. Następnie dokonano zastąpienia wartości odstających, normalizacji zmiennych oraz zamiany destymulant na stymulanty.

Statystyki zmiennych

Zmienna Średnia Odch. std. Minimum 25% 50% 75% Maksimum Skośność Kurtoza CV
$X_{1}$ 8.35 4.39 1.90 4.90 7.10 10.50 20.90 0.94 3.29 52.63
$X_{2}$ 1077.44 294.38 720.00 875.00 995.00 1212.00 2195.00 1.66 6.33 27.32
$X_{3}$ 39.25 9.11 17.60 32.70 39.70 46.30 56.60 -0.30 2.51 23.20
$X_{4}$ 6310.84 585.52 5553.11 5935.46 6182.10 6505.42 9223.73 2.41 12.40 9.28
$X_{5}$ -1.36 2.94 -5.83 -3.31 -1.84 -0.88 11.43 2.19 9.38 215.37
$X_{6}$ 30.68 5.13 22.00 26.50 29.30 35.30 41.80 0.38 2.06 16.73
$X_{7}$ 63.18 16.66 28.60 53.30 61.40 73.90 96.50 0.02 2.46 26.37
$X_{8}$ 30.40 2.25 27.20 28.70 30.20 31.40 37.90 1.00 4.14 7.40
$X_{9}$ 3656.62 1586.45 1574.00 3022.00 3434.00 4030.00 14226.00 5.04 36.36 43.39
$X_{10}$ 33.58 27.30 10.70 18.70 25.50 34.50 131.70 2.56 9.23 81.29
$X_{11}$ 15.62 8.79 6.22 9.27 12.67 18.94 53.94 2.08 9.03 56.29
$X_{12}$ 677.64 82.18 532.00 618.10 669.10 715.60 948.80 1.07 4.77 12.13
$X_{13}$ 143.63 77.83 21.70 92.50 121.80 176.80 384.60 1.42 5.12 54.19
$X_{14}$ 55.84 25.75 5.70 37.60 51.30 69.80 133.90 0.98 3.98 46.10
$X_{15}$ 856.94 2157.39 0.00 16.72 91.26 513.48 13100.80 4.08 21.94 251.75
$X_{16}$ 0.63 1.95 0.02 0.05 0.09 0.21 13.47 5.42 36.00 307.82
$X_{17}$ 43.25 32.78 0.00 11.70 41.50 71.40 100.00 0.22 1.69 75.78
$X_{18}$ 89.96 7.91 70.50 86.00 88.40 91.90 113.00 1.15 4.92 8.79
$X_{19}$ 26.49 2.72 20.00 25.00 27.00 29.00 33.00 -0.21 2.80 10.26

Rozkłady zmiennych

Rozkład stopy bezrobocia jest umiarkowanie prawoskośny, co sugeruje, że większość powiatów charakteryzuje się raczej niższą stopą bezrobocia, a wysokie wartości są rzadsze. Dość wysoka zmienność wskazuje na wyraźne zróżnicowanie sytuacji na rynku pracy w obrębie regionu południowo-wschodniej Polski.


Zmienna opisująca nowo zarejestrowane podmioty gospodarcze ma rozkład prawoskośny, co oznacza, że w większości powiatów poziom przedsiębiorczości jest znacząco umiarkowany, a tylko dla nielicznych obszarów występują wysokie wartości tego wskaźnika. Może to świadczyć o dużych różnicach i skoncetrowaniu rozwoju gospodarczego wyłącznie w kluczowych obszarach regionu.


Udział długotrwale bezrobotnych jest dość zbliżony dla większości powiatów, co sugeruje, że problem ten ma charakter dość równomierny. Brak większych odchyleń może wskazywać na utrwalony poziom bezrobocia strukturalnego w większości regionu.


Przęciętne wynagrodzenia są wysoce zbliżone między powiatami, jednak w kilku z nich notuje się wyraźnie wyższe płace. Sugeruje to stosunkowo jednolity poziom dochodów, z nielicznymi wyjątkami wynikającymi z obecności silniejszych ośrodków gospodarczych.


Wskaźnik migracji ma silnie prawoskośny rozkład i wysoką zmienność, co świadczy o dużych różnicach w atrakcyjności powiatów. W części z nich obserwuje się wyraźny odpływ ludności, podczas gdy inne przyciągają znaczące liczby nowych mieszkańców.


Wskaźnik ten jest stosunkowo wyrównany w skali całego regionu, co oznacza, że proces starzenia się ludności przebiega podobnie w większości powiatów. Różnice między nimi są umiarkowane i nie wskazują na występowanie skrajnych przypadków.


Dostęp do kanalizacji jest w regionie dość szeroki, choć wciąż można wskazać powiaty, w których infrastruktura ta rozwinięta jest znacząco słabiej. Dodatkowo dla głównych obszarów miejskich wskaźnik przyjmuje wyższe wartości.


Rozkład cechy opisującej powierzchnię użytkową na osobę jest prawoskośny, a niska zmienność sugeruje zbliżony poziom warunków mieszkaniowych w większości analizowanych powiatów. Natomiast istnieją obszary regionu, dla których wskaźnik przyjmuje znacznie większe wartości.


Dostępność aptek dla mieszkańców większości powiatów jest zbliżona. W niektórych dostęp do usług farmaceutycznych jest bardzo ograniczony, a także należy zauważyć obszar, dla którego wskaźnik osiągą kilkukrotnie wyższą wartość niż przeciętna. Może to świadczyć o nierównym dostępie do usług zdrowotnych w regionie.


Podobnie jak z dostępnością do aptek, rozkład jest wyraźnie prawoskośny, co oznacza, że w większości powiatów liczba lekarzy jest raczej niska, a tylko kilka jednostek osiąga znacznie wyższe wartości. Duża zmienność potwierdza różnice w dostępności usług medycznych w regionie południowo-wschodniej Polski.


Rozkład umiarkowanie prawoskośny i o wysokiej kurtozie sugerują, że w większości powiatów poziom przestępczości jest niski, lecz pojedyncze obszary notują znacząco wyższe wartości tego wskaźniki.


Rozkład jest lekko prawoskośny, co wskazuje, że większość powiatów ma umiarkowany poziom motoryzacji, a tylko nieliczne wyróżniają się dużą liczbą pojazdów. Niewielka zmienność sugeruje stosunkowo podobny poziom wskaźnika w całym regionie.


Znaczna prawoskośność i spora zmienność mogą świadczyć o dużych różnicach w gęstości infrastruktury drogowej między powiatami. Część jednostek dysponuje rozbudowaną siecią dróg, podczas gdy inne pozostają słabiej rozwinięte pod tym względem.


Rozkład cechy jest prawoskośny, co oznacza, że większość powiatów cechuje się relatywnie niskim poziomem wskaźnika, a do więkoszości wypadków drogowych dochodzi w nielicznych obszarach regionu.


Rozkład bardzo silnie prawoskośny, o wysokiej kurtozie i współczynniku zmienności wskazuje na występowanie kilku powiatów o wyjątkowo wysokim poziomie emisji gazów, stanowiących prawdopodobnie główne obszary przemysłowe regionu południowo-wschodniej Polski. W większości jednostek zanieczyszczenie powietrza pozostaje na stosunkowo niskim poziomie.


Prawoskośność cechy i bardzo wysoka zmienność sugerują, że tylko nieliczne powiaty mają znaczące powierzchnie terenów zielonych. W pozostałych udział takich obszarów jest minimalny.


Rozkład jest umiarkowanie prawoskośny, co oznacza, że większość powiatów ma przeciętny udział terenów chronionych, a tylko niektóre wyróżniają się ich dużym udziałem.


Rozkład prawoskośny o umiarkowanej zmienności świadczy o dość wysokim i zbliżonym poziomie skolaryzacji w regionie. Różnice między powiatami nie są duże, co może sugerować podobny dostęp do edukacji. Należy zauważyć pojedyncze ośrodki, dla których wskaźnik ten jest znacznie wyższy.


Rozkład jest niemal symetryczny, a zmienność niewielka, co oznacza, że liczebność klas jest podobna w większości powiatów. Może to wskazywać na względnie wyrównane możliwości dostępu do edukacji w regionie.

Macierz korelacji

Zaobserwowano wyższy poziom korelacji między liczbą nowo zarejestrowanych podmiotów gospodarczych a przeciętnym wynagrodzeniem brutto oraz dostępnością do kadry medycznej. Może to wynikać z faktu, że regiony o większej aktywności gospodarczej generują wyższe dochody, co przyciąga specjalistów, w tym pracowników sektora medycznego, oraz umożliwia lepsze finansowanie lokalnej opieki zdrowotnej. Jednocześnie obszary o dynamicznie rozwijającej się gospodarce częściej pełnią funkcję centrów administracyjnych i usługowych, co sprzyja rozwojowi infrastruktury medycznej i wyższym wynagrodzeniom.

Również między liczbą lekarzy przypadających na mieszkańca a udziałem terenów zielonych i poziomem skolaryzacji. Należy przypuszczać, że powiaty o dobrze rozwiniętej infrastrukturze społecznej i edukacyjnej nie tylko przyciągają wykwalifikowaną kadrę medyczną, ale również dbają o jakość środowiska miejskiego. Obecność terenów zielonych może odzwierciedlać dbałość o jakość życia mieszkańców, co z kolei sprzyja koncentracji instytucji edukacyjnych i medycznych w tych samych obszarach.

Dodatkowo wykazano korelację między poziomem skolaryzacji a stopniem rozwoju infrastruktury. Może to sugerować, że obszary o dobrze rozwiniętej infrastrukturze – takie jak większe miasta – są naturalnymi ośrodkami edukacji i nauki. Wysoka jakość infrastruktury sprzyja koncentracji szkół wyższych, instytucji badawczych i ośrodków naukowych.

Przygotowanie zmiennych

Większość z analizowanych cech charakteryzuje się silną prawostronną asymetrią. W celu osłabienia wpływu zdecydowano się na ograniczenie wartości zmiennych do wartości górnego lub dolnego wasą, tj. $Q_1 - 1.5 \cdot (Q_3 - Q_1)$ oraz $Q_3 + 1.5 \cdot (Q_3 - Q_1)$. W przypadku porządkowania liniowego oraz analizy skupień wartości odstające mogą znacząco wpłynąć na miary odległości i relacje między obiektami. Dodatkowo uzsadnione jest stwierdzenie, że pojedyncza element nie może w nieograniczonym stopniu wpływać na analizowane warunki życia.

Dla zapewnienia porównywalności oraz zrównoważenia wpływu poszczególnych cech wszystkie zmienne diagnostyczne zostały przekształcone do wspólnej skali. W tym celu dokonano standaryzacji (normalizacji standardowej), zgodnie ze wzorem: $$ z_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j} $$ gdzie:

  • $z_{ij}$ - standaryzowana wartość j-tej zmiennej dla i-tego obiektu,
  • $x_j$ - początkowa wartość j-tej zmiennej dla i-tego obiektu,
  • $\bar{x}_j$ - średnia dla j-tej zmiennej,
  • $s_j$ - odchylenie standardowe dla j-tej zmiennej.


W porządkowaniu liniowym, dla technik bezwzorcowych wszystkie cechy należy zamienić na stymulanty. Podejście to również ma uzasadnienie dla technik wzorcowych. Dokonuje się tego zamieniając wartość destymulanty na $X_i^{\prime} = -X_i$.

Żadna z analizowanych cech nie wykazuje bardzo silnej korelacji. W przypadku trzech zmiennych — przeciętnego wynagrodzenia, powierzchni użytkowej mieszkania oraz poziomu skolaryzacji — współczynnik zmienności wyniósł nieco poniżej 10%. Ze względu na prawdopodobną istotność tych cech dla porządkowania liniowego i analizy skupień zdecydowano jednak o ich zachowaniu. Ponadto rezygnacja z tych zmiennych nie byłaby wskazana, ponieważ umożliwia porównanie ocen warunków życia powiatów południowo-wschodniej Polski z wcześniejszym opracowaniem z 2019 r., w którym zastosowano te same zmienne.

Porządkowanie liniowe

Zastosowane metody

Jako bezwzorcową technikę porządkowania liniowego wykorzystano metodę standaryzowanych sum. Po zamianie zmiennych na stymulanty i standaryzacji należy zsumować oszacowanie uzyskane ramach obiektu tj. $s_i = \frac{1}{m} \sum_{j=1}^{m} z_{ij}$. Dla uzyskanego wskaźnika można dokonać normalizacji.

Jako wzorcową technikę porządkowania liniowego wykorzystano metodę Hellwiga. Po zamianie zmiennych na stymulanty i standaryzacji należy wyznaczyć wzorzec zgodnie ze wzorem: $z_{0j} = \max\limits_{i=1,\dots,n} z_{ij}$. Następnie wyznaczyć odległości wszystkich obiektów od wzorca (np. z wykorzystaniem metryki euklidesowej) tj. $d_i = \sqrt{\sum_{j=1}^{m} (z_{ij} - z_{0j})^2}$. W kolejnym etapie należy utworzyć synetyczny miernik, wskaźnik Hellwiga jako $s_i = 1 - \frac{d_i}{d_0}$, gdzie $d_0 = \bar{d} + 2 \cdot s_d$ (odłegłość możliwie daleka).

Dla interpetacji wyników zastosowano grupowanie według średniej:

  • grupa I (najwyższy poziom): $r \geq \bar{x} + s_x$
  • grupa II (poziom ponadprzeciętny): $\bar{x} \leq r < \bar{x} + s_x$
  • grupa III (poziom poniżej przeciętnej): $\bar{x} - s_x \leq r < \bar{x}$
  • grupa IV (poziom najniższy): $r < \bar{x} - s_x$

Otrzymane rankingi

Hellwig Standaryzowane sumy
Powiat $s_i$ Gr. Poz. $s_i$ Gr. Poz.
m. Kraków 0.379 I 1 1.000 I 1
krakowski 0.318 I 2 0.740 I 4
wielicki 0.315 I 3 0.780 I 3
buski 0.300 I 4 0.656 I 8
suski 0.295 I 5 0.660 I 7
m. Rzeszów 0.285 I 6 0.887 I 2
proszowicki 0.273 I 7 0.624 II 12
oświęcimski 0.260 I 8 0.527 II 19
bocheński 0.251 II 9 0.559 II 15
m. Kielce 0.249 II 10 0.728 I 5
staszowski 0.247 II 11 0.483 II 22
miechowski 0.245 II 12 0.557 II 16
wadowicki 0.240 II 13 0.502 II 21
chrzanowski 0.234 II 14 0.507 II 20
myślenicki 0.219 II 15 0.602 II 13
m. Nowy Sącz 0.217 II 16 0.641 I 11
m. Tarnobrzeg 0.211 II 17 0.554 II 17
m. Krosno 0.210 II 18 0.684 I 6
sandomierski 0.204 II 19 0.434 III 31
tatrzański 0.203 II 20 0.602 II 14
brzeski 0.201 II 21 0.454 II 25
mielecki 0.196 II 22 0.439 III 29
nowotarski 0.194 II 23 0.532 II 18
m. Przemyśl 0.193 II 24 0.644 I 9
m. Tarnów 0.187 II 25 0.644 I 10
łańcucki 0.187 II 26 0.464 II 23
stalowowolski 0.181 II 27 0.436 III 30
olkuski 0.177 II 28 0.382 III 41
starachowicki 0.175 II 29 0.395 III 38
konecki 0.173 II 30 0.387 III 39
Hellwig Standaryzowane sumy
Powiat $s_i$ Gr. Poz. $s_i$ Gr. Poz.
kielecki 0.172 II 31 0.462 II 24
dębicki 0.170 II 32 0.406 III 34
włoszczowski 0.165 III 33 0.379 III 42
limanowski 0.158 III 34 0.444 III 28
gorlicki 0.156 III 35 0.396 III 37
krośnieński 0.154 III 36 0.430 III 32
ostrowiecki 0.152 III 37 0.367 III 45
przeworski 0.151 III 38 0.401 III 36
leski 0.144 III 39 0.446 III 26
jarosławski 0.143 III 40 0.372 III 44
sanocki 0.138 III 41 0.352 III 47
tarnowski 0.135 III 42 0.405 III 35
skarżyski 0.135 III 43 0.349 III 48
pińczowski 0.130 III 44 0.378 III 43
jasielski 0.125 III 45 0.305 III 49
kazimierski 0.121 III 46 0.382 III 40
rzeszowski 0.112 III 47 0.445 III 27
lubaczowski 0.110 III 48 0.356 III 46
bieszczadzki 0.109 III 49 0.415 III 33
dąbrowski 0.108 III 50 0.272 III 51
jędrzejowski 0.103 III 51 0.241 IV 55
ropczycko-sędziszowski 0.098 III 52 0.291 III 50
niżański 0.064 IV 53 0.249 IV 53
nowosądecki 0.053 IV 54 0.264 IV 52
tarnobrzeski 0.045 IV 55 0.194 IV 57
leżajski 0.042 IV 56 0.188 IV 58
strzyżowski 0.024 IV 57 0.176 IV 59
kolbuszowski 0.024 IV 58 0.201 IV 56
przemyski 0.011 IV 59 0.243 IV 54
brzozowski -0.007 IV 60 0.142 IV 60
opatowski -0.028 IV 61 0.000 IV 61

Mapy podziałów na grupy

Wnioski

Zastosowane metody porządkowania liniowego – Hellwiga oraz standaryzowanych sum – dały zbliżone wyniki w klasyfikacji powiatów. Obie metody są zgodne co do lidera rankingu, jednoznacznie wskazując m. Kraków na pierwszej pozycji w najwyższej klasie (grupa I). Największe rozbieżności widoczne są w klasyfikacji innych dużych miast: metoda standaryzowanych sum przyporządkowała m. Kielce, m. Tarnów, m. Nowy Sącz oraz m. Przemyśl do grupy I, podczas gdy w metodzie Hellwiga znalazły się one w niższej w grupie II. Występują również znaczące różnice w środkowych grupach; przykładowo powiaty sandomierski i olkuski zostały znacznie wyżej ocenione przez metodę Hellwiga (grupa II) niż przez metodę sum (grupa III).

Metody Hellwiga i standaryzowanych sum wykazują bardzo wysoką zgodność porządkowania obiektów, co potwierdzają współczynniki korelacji Tau-Kendalla (0,83) i Spearmana (0,92). Obie korelacje są statystycznie istotne (p < 0,001), co oznacza, że uzyskane wyniki pokrywają się w znacznym stopniu. Można zatem uznać, że wybór jednej z metod nie wpływa znacząco na końcowe wnioski rankingowe.

Analiza skupień

Zastosowane metody

Jako technikę grupowania podziałowego wykorzystano metodę k-średnich, która działa iteracyjnie i polega na podziale zbioru danych na k klastrów w taki sposób, aby obiekty w tym samym klastrze były jak najbardziej podobne, a różne klastry jak najbardziej od siebie odseparowane. Losowo wybiera się k centroidów, następnie przypisuje obiekty do najbliższego centroidu, aktualizuje je na podstawie średnich przypisanych punktów i powtarza te kroki aż do osiągnięcia zbieżności. Do doboru wartości parametru k wykorzystano metodę elbow (łokciową), którą dąży do zminimalizowania zmienności wewnątrz wszystkich klastrów.

Jako technikę grupowania hierarchicznego wykorzystano metodę Warda, która działa iteracyjnie i polega na łączeniu obserwacji w klastry w taki sposób, aby minimalizować wzrost wariancji wewnątrzklastrowej. Liczbę klastrów określono na podstawie wskaźnika Calińskiego–Harabasza, który ocenia jakość podziału poprzez porównanie wariancji międzyklastrowej do wariancji wewnątrzklastrowej. Wyższe wartości wskaźnika wskazują na lepsze rozdzielenie i większą spójność klastrów.

Metoda k-średnich

Wybór wartości parametru k

Jako optymalną wartość paramateru, tzn. wartość, dla której dalsze zwiększanie liczby klastrów nie przynosi znaczącego spadku WCSS (tzw. łokieć), przyjęto cztery.

Mapa klastrów

Statystyki dla klastrów

Klaster 1 Klaster 2 Klaster 3 Klaster 4
Zmienna Średnia Odch. std. Średnia Odch. std. Średnia Odch. std. Średnia Odch. std.
$X_{1}$ 9.49 4.21 4.93 2.35 11.83 3.90 5.62 1.97
$X_{2}$ 1082.15 253.32 1393.50 240.76 850.76 87.62 1069.65 164.25
$X_{3}$ 43.29 8.54 36.82 8.83 42.61 7.24 33.29 8.44
$X_{4}$ 6383.31 312.83 6746.14 516.43 5986.55 296.75 6175.90 424.86
$X_{5}$ -2.59 1.05 -2.00 2.84 -2.58 1.04 0.41 1.68
$X_{6}$ 34.86 3.36 34.97 4.00 29.04 3.74 25.61 2.04
$X_{7}$ 50.54 14.03 86.23 10.37 66.44 11.09 58.99 11.36
$X_{8}$ 31.78 1.97 30.55 1.84 28.70 0.98 30.47 2.18
$X_{9}$ 3238.12 601.94 2494.80 509.01 3857.88 712.71 4045.41 651.59
$X_{10}$ 28.64 9.75 51.39 11.07 22.69 7.59 21.51 5.67
$X_{11}$ 15.46 5.60 24.74 6.66 10.95 4.92 13.28 5.23
$X_{12}$ 740.44 73.85 678.04 76.52 639.99 56.69 643.69 49.04
$X_{13}$ 116.81 54.02 255.15 54.20 93.64 29.76 142.62 32.18
$X_{14}$ 58.06 20.63 71.75 31.05 44.27 19.51 54.56 25.36
$X_{15}$ 292.21 417.26 1185.11 232.46 79.57 99.87 126.76 222.72
$X_{16}$ 0.08 0.06 0.46 0.00 0.09 0.07 0.12 0.09
$X_{17}$ 61.77 34.14 11.90 19.53 40.46 25.01 45.96 32.06
$X_{18}$ 87.71 2.63 99.06 3.35 85.45 3.90 88.68 3.76
$X_{19}$ 25.88 2.89 28.30 2.54 25.41 2.53 27.12 2.29

Metoda Warda

Wybór punktu odcięcia

Pomimo że najwyższą wartość wskaźnika Calińskiego–Harabasza uzyskano dla podziału na dwa klastry, zdecydowano się na wybór trzech klastrów, aby lepiej uchwycić zróżnicowanie pomiędzy licznymi powiatami i uniknąć nadmiernego uproszczenia.

Mapa klastrów

Statystyki dla klastrów

Klaster 1 Klaster 2 Klaster 3
Zmienna Średnia Odch. std. Średnia Odch. std. Średnia Odch. std.
$X_{1}$ 4.93 2.35 9.30 4.11 8.79 4.46
$X_{2}$ 1393.50 240.76 1077.45 239.68 955.38 174.62
$X_{3}$ 36.82 8.83 41.76 9.27 38.53 9.04
$X_{4}$ 6746.14 516.43 6389.55 308.28 6058.64 367.46
$X_{5}$ -2.00 2.84 -2.71 1.06 -0.92 2.00
$X_{6}$ 34.97 4.00 35.13 3.44 26.69 2.24
$X_{7}$ 86.23 10.37 52.72 14.75 62.18 11.84
$X_{8}$ 30.55 1.84 31.50 2.04 29.61 1.95
$X_{9}$ 2494.80 509.01 3255.95 588.63 3985.66 676.85
$X_{10}$ 51.39 11.07 29.15 9.40 21.39 6.08
$X_{11}$ 24.74 6.66 15.19 5.37 12.06 5.28
$X_{12}$ 678.04 76.52 724.47 84.61 645.17 51.94
$X_{13}$ 255.15 54.20 114.85 52.19 119.37 39.58
$X_{14}$ 71.75 31.05 57.05 20.96 49.48 22.96
$X_{15}$ 1185.11 232.46 288.48 394.49 93.56 171.22
$X_{16}$ 0.46 0.00 0.10 0.07 0.09 0.07
$X_{17}$ 11.90 19.53 59.75 34.33 43.25 28.29
$X_{18}$ 99.06 3.35 87.55 2.60 87.12 4.21
$X_{19}$ 28.30 2.54 25.95 2.74 26.25 2.60

Wnioski

Porównanie mapy Warda ($k=3$) z mapą k-średnich ($k=4$) pokazuje, że podział na 4 klastry jest w dużej mierze rozwinięciem podziału na 3 klastry – jeden z klastrów metody Warda (klaster 3, obejmujący północny zachód i południowy wschód) został w metodzie k-średnich rozbity na dwie odrębne grupy (klaster 1 i klaster 4). Występuje silna autokorelacja przestrzenna: powiaty grupują się w spójne geograficznie regiony, co potwierdza zasadność podziału. Obie analizy potwierdziły istnienie bardzo stabilnego klastra "zurbanizowanego", skupionego wokół głównych miast (powiaty grockie), który wyróżnia się najwyższymi średnimi wartościami dla większości wskaźników (m.in. $X_2$, $X_{10}$, $X_{13}$). Przeciwieństwie do otrzymanego klastra "peryferyjnego" (klaster 3 w metodach Warda oraz k-średnich), dla którego powiaty charakteryzują się najniższymi wartościami tych wskaźników, ale jednocześnie mają wspólną cechę w postaci bardzo wysokiej średniej dla zmiennej $X_9$, która mówi o liczbie osób przypadających na aptekę.

Podsumowanie

Powyższa analiza oraz wcześniejsze badania dr. Wolaka opierają się na identycznym zbiorze 19 wskaźników dla powiatów Polski południowo-wschodniej. Zasadnicza różnica w podejściach metodologicznych polega na różnicach w rozwinięciu analizy: w opracowaniu dr. Wolak poszerzono ją o metody porządkowania uwzględniające sąsiedztwo (algorytmy Pietrzaka i Sobolewskiego), podczas gdy w tym badaniu wykorzystano ranking Hellwiga i metodę standaryzowanych sum, a także analizę skupień (metody Warda i k-średnich). Pomimo zbliżonych, ale różnych podejść, wyniki obu analiz są wysoce zbieżne i wzajemnie się potwierdzają, co fundamentalnie wzmacnia ich wiarygodność. Zidentyfikowany klaster "zurbanizowany" dokładnie pokrywa się z jednostkami zajmującymi najwyższe pozycje w rankingu dr. Wolaka, zlokalizowanymi w centralnej i zachodniej Małopolsce. Analogicznie, wyznaczone klastry "peryferyjne" odpowiadają obszarom o najniższym wskaźniku syntetycznym w tamtym badaniu, czyli wschodniej części regionu. Obie metody analizy skupień analizy dowiodły również istnienia silnej autokorelacji przestrzennej warunków życia. Oznacza to, że kondycja powiatu jest silnie powiązana z jego sąsiadami, co prowadzi do tworzenia się wyraźnych geograficznych mikroregionów dobrobytu i stagnacji. Zaletą zastosowanego podejścia klasyfikacyjnego jest możliwość głębszej charakterystyki zidentyfikowanych grup (poprzez wyznaczenie statystyk dla każdego z klastrów). Pozwoliło to na wskazanie specyficznych, wspólnych problemów, jak np. krytycznie niska dostępność do aptek (zmienna $X_9$) w klastrach "peryferyjnych" i wysoka średnia wynagrodzeń ($X_2$) w klastrach "zurbanizowanych".